查看原文
其他

阿里云通义听悟新增视频自动提取PPT;鸿蒙4.0或搭载AI大模型 | AI日报

头号AI玩家 头号AI玩家 2023-09-02


欢迎围观“头号AI玩家”的「AI日报」栏目。AIGC前沿资讯,及时拿捏!


【1分钟速看版】

🔧 阿里云通义听悟新增视频自动提取PPT等功能

🌄 北大团队提出Dragon Diffusion,可一键拖拽编辑图像

🚗 百度Apollo官宣文心大模型首批智舱应用伙伴

💻 余承东“剧透”鸿蒙4.0:或搭载AI大模型

☁️ 百度千帆大模型平台接入LLaMA2等33个模型

🌃 传OpenAI正测试第三代图片生成模型DALL-E 3

🤖️ 英伟达发布Perfusion AI文生图模型,体积仅100KB

🎵 Meta发布AudioCraft,可帮助用户创作音乐和音频

🍎 郭明錤:苹果的生成式AI技术明年也不会推出

🏠 谷歌研究团队利用GPT-4击败AI-Guardian审核系统📰 澳大利亚新闻集团利用AI每周生成3000篇当地新闻报道



国内资讯


1. 阿里云通义听悟新增视频自动提取PPT等功能


8月2日,阿里云通义听悟上线了三大新功能,包括国内音视频AI领域首创的视频自动提取PPT,以及浏览器插件、钉钉和微信小程序,帮助用户在PC和移动端随时随地听懂、理解、阅读各类音视频内容



在通义听悟本次更新的功能中,“自动提取PPT”支持自动将PPT讲解视频分割为演示文稿,并对每页PPT进行要点总结,形成一份图文并茂的大纲,解决培训、网课学习等场景“求PPT难”的问题。“浏览器插件”功能支持用户开会、上网课、看直播、看视频时,可用ChromeEdge浏览器插件全程录制,并实时生成双语字幕。(来源:快科技)

2. 北大团队提出Dragon Diffusion,可一键拖拽编辑图像


近日,北京大学张健团队、腾讯ARC Lab和北京大学深圳研究生院-兔展智能AIGC联合实验室共同合作,提出了一种在扩散模型上实现拖拽式图像编辑操作的开创性方法DragonDiffusion。



它可以支持多种图像编辑模式,比如物体移动、物体缩放、物体外观替换和内容拖拽,具有非常丰富的应用场景,同时解决了Stable Diffusion生成图片中部分残缺的问题,可以很好进行控制重绘。据悉,实验室近期还会推出原创对标Stable Diffusion的大模型。(来源:量子位)


3. 百度Apollo官宣文心大模型首批智舱应用伙伴


82日,百度Apollo宣布长城汽车、亿咖通科技成为首批文心大模型智舱应用探索伙伴。百度Apollo已分别与长城汽车、亿咖通科技基于大模型能力围绕车载交互场景开展探索和实践,完成多项创新功能在量产车型平台上的验证,部分功能有望在长城、领克、smart等量产车型上率先落地。(来源:智东西)
4. 余承东“剧透”鸿蒙4.0:或搭载AI大模型
82日,余承东在社交平台展示了一项新技术:他利用华为手机内置的小艺语音助手,写了一段发布会宣传文案。从该视频可以看出,小艺可以根据用户需求,自动生成文案等内容。而在小艺的回答下方有一行提示——“数据来源:AI模型自动生成,可能存在疏漏,仅供参考”。华为鸿蒙4.0或将融入AI大模型的能力,使得小艺语音助手具备生成式AI的功能。(来源:财联社)



5. 百度千帆大模型平台接入LLaMA2等33个模型


8月2日,百度智能云“千帆大模型平台”升级了三大功能。百度智能云AI与大数据平台总经理忻舟表示,目前,千帆大模型平台已经全面接入LLaMA2全系列、ChatGLM2、RWKV、MPT等33个大模型,成为国内拥有大模型最多的平台。接入的模型经过千帆平台二次性能增强,模型推理成本可降低50%。


同时,千帆平台上线了国内最全的预置Prompt模板,模板数量多达103个,覆盖对话、游戏、编程、写作十余个场景。第三,千帆是国内首家提供插件服务的大模型平台,本次升级再次发布多款全新插件。(来源:证券时报)


海外资讯


6. 传OpenAI正测试第三代图片生成模型DALL-E 3


近日,OpenAI正在准备下一代DALL-E AI模型(DALL-E 3),目前该公司正在进行一系列Alpha测试,而部分用户已经提早接触到了该AI模型。Discord上的一位匿名用户分享了他在测试 DALL-E 3时的体验。


图片来源:Discord用户

该匿名用户表示,5月份的DALL-E 3测试版本已经能够生成多种长宽比的图像,同时支持更长的提示语句,还能生成“正常的文字”。DALL-E 3在图像质量和多样性方面均有所突破,有望推动AI图像生成进入新阶段(来源:科创板日报)

7. 英伟达发布Perfusion AI文生图模型,体积仅100KB

近日,英伟达研究人员推出了一款名为Perfusion的“文生图”模型,该模型最大的特点就是“小”,该模型体积只有100KB,训练时间只需4分钟用户可以通过文本提示,逐步引导模型分布进行图像创作。官方表示,Perfusion模型生成的图片质量与Stability AIStable Diffusion v1.5版本大致相同,而在效率方面,得力于其轻量化的体积,Perfusion模型的效率在业界处于“第一梯队”。(来源:DoNews)


8. Meta发布AudioCraft,可帮助用户创作音乐和音频

8月3日,Meta发布了一款开源人工智能(AI)工具AudioCraft(直译为音频技艺),该工具可以帮助用户根据文本提示创作音乐和音频。Meta表示,这款人工智能工具将AudioGen、EnCodec和MusicGen三种模型或技术融为一炉,可用文本内容生成高质量、逼真的音频和音乐。


Meta在官网介绍称,MusicGen可以从文本提示生成音乐,而AudioGen可从文本提示生成音频,比如模拟狗叫或脚步声;再加上EnCodec编解码器的改进版本,用户可以更高效率地生成更高质量的音乐。(来源:极客公园)


9. 郭明錤:苹果的生成式AI技术明年也不会推出

近日,苹果分析师郭明錤在新报告中指出,目前没有任何迹象显示苹果会在2024年推出生成式AI技术或将其结合至硬件。郭明錤预测,苹果不会在即将到来的财报电话会议上花太多时间去讨论 AI 相关事项。Mark Gurman上个月报道,苹果内部已经在做类似GPT的产品,但对于如何将生成式AI技术应用至消费者产品,苹果仍未有清晰的策略。(来源:APPSO

10. 谷歌研究团队利用GPT-4击败AI-Guardian审核系统


8月2日,谷歌研究团队正在进行一项实验,他们使用OpenAI的GPT-4来攻破其他AI模型的安全防护措施,该团队目前已经攻破AI-Guardian。AI-Guardian是一种AI审核系统,能够检测图片中是否存在不当内容,及图片本身是否被其他AI修改过,若检测到图片存在上述迹象,便会提示管理员前来处理。

图片来源:谷歌研究团队

据悉,GPT-4会发出一系列错误的脚本和解释来欺骗AI-Guardian可以让AI-Guardian认为“某人拿着枪的照片”是“某人拿着无害苹果的照片”,从而让AI-Guardian直接放行相关图片输入源。谷歌研究团队表示,通过 GPT-4的帮助,他们成功地“破解”了AI-Guardian的防御,使该模型的精确值从98%的降低到仅8%(来源:IT 之家)

11. 澳大利亚新闻集团利用AI每周生成3000篇当地新闻报道

82日,澳大利亚新闻集团(News Corp Australia)执行主席Michael Miller透露,该公司每周使用生成式人工智能制作3000篇文章,生成数千个有关天气、燃油价格和交通状况的当地报道。最近,该新闻集团发布公告招聘生成式AI数据记者,要求会使用AI自动创建新闻内容。这在新闻领域属于比较新鲜的职位,同时新闻媒体的内容创作将迎来转型时期。(来源:AIGC开放社区)

澳大利亚新闻集团发布的招聘信息



今日话题


术评论,小狗也会写?


近期,在马德里Colección SOLO美术馆,迎来了世界上第一只专门写艺术评论的AI小狗A.I.C.C.A.。



这只AI小狗就像专业的艺评人一样。当有吸引它注意力的艺术品出现时,它便会在艺术品前停留,观察构图、风格、用色,再将数据上传AI,生成一篇幽默风趣、理性客观的艺术评论。

AICCA和它的黑镜片眼睛。©Mario Klingemann


然后,这篇附有作品照片的评论会被打印在热敏收据纸上,像拉粑粑一样被小狗排出😅。



A.I.C.C.A.的发明者Mario Klingemann,是一位德国的多媒体艺术家。他创造了A.I.C.C.A.,旨在向艺术家们发问:你们的作品经得起AI艺评人的审视吗?


各位玩家读艺术评论的时候,有没有遇到过这种情况:明明拆开来每个字都懂,但连起来却完全搞不懂。


说不定,艺术评论连AI小狗都写得更好一些噢。


(整理:阿虎)




头号AI玩家交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。


也欢迎围观小红书@头号AI玩家,我们在这里日常练习AI绘画,目标每日一更。


欢迎分享、点赞、在看

 一起研究AI

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存